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Beschreibung 



Verfahren zuxa Aufbereiten einer Datenbank tilr die automati 
sche Sprachverarbeitung automati- 

5 

Die Erfindung betrifft ein Verfahren zum Aufbereiten 
Datenbank for die autoraatische Sprachverarbeit, 
Verfabren eu. Xrainieren eines nLonaiTH 
ordnen von Graphemen zu Phonemen fUr di. ^ I 

Phonemen bei der Synthetlsierung von s^TZJw ^''T 
kennung von Sprache. ^ E-^" 

Es ist bekannt, neuronale Netzwer-t= „ 

^ ::: rnjv™- ---- ~\r::::;:L 

lien lext, der m emer Folae von r^o^u 

in Phoneme ™.etzen, welche vln J ^-^-tallt ist, 

nem, zugeordnet i c-t- t^^-.^ • -"^^^-ii-/ aas Fno- 

aufgebaut werden kannL. SP"che.perten 
.e^.-.ona„-.o.dn_,_a.::nll\r^^^^^^^^^^ 
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gung der Phonemeinheiten und/oder Graphemeinheiten zugeordnet 
warden^ und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
geftlhrt wird, mit dem Zuordnungen von W5rtern, die im Wider- 
5 spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, gel6scht werden. 

Erf indungsgemaB werden zunachst Worter untersucht, die die- 
selbe Anzahl Grapheme und Phoneme besitzen. Die Grapheme die- 
ser Worter werden den Phonemen paarweise zugeordnet, wobei in 
einem darauf f olgenden Korrekturschritt die Zuordnungen der 
Worter geloscht werden, die im Widerspruch zu den weiteren 
Zuordnungen stehen. 

15 Mit diesem ersten Zuordnungsvorgang kann eine GroBzahl der 

Worter abgearbeitet werden und zudem statistisch signifikante 
Zuordnungen erzielt werden, die eine Oberprufung im Korrek- 
turschritt erlauben und die auch eine Uberprufung der weite- 
ren zu erstellenden Zuordnungen in den nachf olgenden Schrit- 

20 ten erlauben. 

Danach werden die Worter untersucht, bei denen sich die An- 
zahl der Phoneme gegenuber der Anzahl von Graphemen unter- 
scheidet. Bei Wortern mit mehr Graphemen als Phonemen werden 
mehrere Grapheme zu Graphemeinheiten zusammengef afit und bei 
WOrtern mit weniger Graphemen als Phonemen werden Phoneme zu 
Phonemeinheiten zusammengef aJit . 

Nach Beendigung dieser Schritte werden die bisher nicht zu- 
30 ordbaren Worter uberpruft, wobei hierbei die ermittelten Pho- 
nemeinheiten und/oder die ermittelten Graphemeinheiten be- 
rucksichtigt werden. 

Mit dem erf indungsgemaJien Verfahren wird somit schrittweise 
35 automatisch ein „Zuordnungswissen^^ erstellt, das zunachst auf 
paarweisen Graphem-Phonem- Zuordnungen beruht und in das im 
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gemafien Verfahrens ist die Erstellung 
nung. 



einer solchen Zuord^ 



In Fig. 1 ist 

Verfahrens in einem Fluiidiagraitmi dargestellt 
Schritt " 



in Ausfiihrungsbeispiel des erf indungsgemafl 

In einem 



en 



SI wird das Verfahren gestartet. 

im schritt S2 warden alls Worter untersucht, die die aleich. 
Anzahl Grapheme und Phoneme besitzen. Die G;apheme dieL: 
W.rter werden den entsprechenden Phonemen paaLeise IXd- 

Eine derartige paarweise Zuordnung wird z.b. fur das enali- 

ITJ^""" "T foigenderma.en mit seLe;^ 

Graphemen und Phonemen dargestellt werden kann: 

Grapheme: run 
Phoneme: r A n 



das Graphem 
zuge- 



Bei „run« wird das Graphem dem Phonem „r^ aa 

ordnet. Bex d.eser paarweisen Zuordnung wird somit jeweils 
exn exnz.ges Graphem einem einzigen Phonem zugeordnet DxL 
wird fiir alle Worter ausaefiihrt h.- ^- , '3^oranet. Dies 
Phoneme und Grapheme ^IZTn ''^"'^ 

IB nachfolgsnden Schritt S3 wird eine Korre.tur ausgefuhrt 
mit der die Zuordnungen der w«,-i-», ^- "»gerunrt, 
im Schritt S2 ermitt!^^ "^'^^^P'^^^h zu dem 

nritt S2 ennittelten weiteren Zuordnmgen stehen oe- 
ioscht „erde„. Hierzu werden die H.u«,.eiten der eL'elnen 
Graphem-Phonem-Zuordnungen erfaflt und Graphe.-Phone„- 
zuordnungen die nur selten vorkonnen werden gelaschT Lie.t 
die „.ufig.eit einer bestin^ten Graphe„-PhonL- un- 
ter eine. vorbesti^nten Schwellwert, .o werden die en'pre 

ii ="f^-:--»-"-^ungen gela.cht. .er SchwelLert 

j-xegi: z.b. im Bereich von einer RiSn-F-i ^^u^^ ^ 

einer naurigkeit von 10 hie, inn t 

nach u«.ang de. Vo.abular. der Ausgangsdatenban^.a:: der 
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Im Schritt S6 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und im Schritt S4 nicht korrekt zugeordnet werden 
konnten, von neuem untersucht, wobei jeweils ein einzelnes 
Graphem einem einzelnen Phonem in Leserichtung (von links 
nach rechts) zugeordnet wird. Jede einzelne Zuordnung wird 
iiberprtift, ob sie den bisher ermittelten Zuordnungen ent- 
spricht. Ergibt diese OberprUfung, dafi eine Graphem-Phonem- 
Zuordnung nicht den bisherigen Zuordnungen entspricht, das 
heifit, dafi sie nicht die notwendige Haufigkeit besitzt, geht 
das Verfahren auf die letzte Graphem- Phonem- Zuordnung zurUck 
und verbindet das Graphem dieser Graphem-Phonem-Zuordnung mit 
dem in Leserichtung nSchstem Graphem zu einer Graphemeinheit . 
Die ubrigen Phoneme und Grapheme werden dann wieder einander 
15 einzeln zugeordnet, wobei wiederum jede einzelne Graphem- 
Phonem-Zuordnung uberprtift wird. 



10 




20 




5 



Bei diesem Verf ahrensschritt konnen innerhalb eines Wortes 
eine Oder mehrere Graphemeinheiten erzeugt werden, wobei die 
Graphemeinheiten in der Kegel zwei Grapheme umfassen. Es ist 
jedoch auch moglich, dafi die Graphemeinheiten drei oder mehr 
Grapheme lamfassen kOnnen. 

Ein Wort, bei dem der Schritt S6 zu einer erfolgreichen Zu- 
ordnung ftihrt ist z.B. das englische Wort „abasement": 

Grapheme: abasement 
Phoneme: xbes mint 



30 



Bei ^abasement" erfolgt die paarweise Zuordnung korrekt bis 
zum Graphem „e" das zunachst dem Phonem „m^\ zugeordnet wird, 
Diese Zuordnung steht im Widerspruch zu den bisher ermittel- 
ten Zuordnungen, weshalb das Verfahren auf die letzte erfolg- 
reiche Zuordnung des Graph ems „s" zum Phonem „s^^ zuruckgeht 
35 und das Graphem „s^^ mit dem Graphem „e" zur Graphemeinheit 

„se" verbindet. Die weitere paarweise Zuordnung der Grapheme 
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nung verlauft korrekt bis zum GrapheM „g« das zunMchst dem 
Phone. .,3" zugeordnet wird. Diese Zuordnun, steht i^Wid^- 
spruch zu den bisher ermittelten Zuordnungen Als eLLf 
Phone, de. .eln Grap.e. zugeo.dnet «erden .a^n :e:;r: ^r^as 

reM^rz^g^rl^,;/^^ ^" -aphe.einheit zusa™.enge.aBt 

I« schritt S9 warden die i„ schrltt S8 untersuchten warter 
die nicht vollstandig er(olgreich zugeordnet worden sind 
«.ar..ert und deren Zuordnungen werden wiederu. gelLcht 

im schritt SIO werden die Barter, die weniger Grapheme als 

e n°::::en"p:'"" '"phe: den 

Graohe"! kT" ■'"^^^^^ -geordnet werden, wobei die 
Grapheme auch den zu den zugeordneten Phone-en benachbarten 
Phonemen zugeordnet werden. Von all diesen Zuordnungen" rd 
die :eweiUge H.ufig.eit bestin^t, und falls festgssteUt 
"ird, daa ein Graphe. zwei benachbarten PhoneMen It einer 

Phoneme zu einer Phcnemeinhelt zusammengefaBt, falls dieh 
den Phoneme zwei Vokale Oder zwei Konsonanten sind! 

f^"rt:";t1'B'i:" ^" 

1st 2.B. das englische Wort „axes-: 



Grapheme: ax e s 
Phoneme; @ ks i z 

Bei „axes^^ ergibt die Zuordnungen des Graphexns 
Phonemen „k« und „s« jeweils eine Haufigkeit die .h" 
vorbestimmten Schwellwert ll^rr*- ^^""^"^ 
.ur Phonemeinheit ^ --en Phoneme 

Grapheme und Phoneme werden wiederum paarlte" g^r . 



.X" zu den 
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Grapheme: accu mu lated 
Phoneme: xk yumyxletid 

Bei diesem Wort werden zunachst die Phoneme „y^^ und „u" bzw. 
„y^' und „x" durch die Phonemeinheiten „yu^^ bzw. „yx" ersetzt. 
Da diese Phonemeinheiten bereits bei den vorhergehenden 
Schritten ermittelt worden sind, wird im Schritt S14 von der 
Option Gebrauch gemacht, dafi auch die Graphemeinheiten be- 
rUcksichtigt werden, so wird fur die beiden Grapheme „c" und 
„c" die Graphemeinheit „cc" verwendet. Die paarweise Zuord- 
nungen der einzelnen Grapheme bzw. Graphemeinheiten zu den 
einzelnen Phonemen bzw. Phonemeinheiten ergibt eine korrekte 
Zuordnung. 



Wird von der Option der Beriicksichtigung der Graphemeinheiten 
kein Gebrauch gemacht, so werden, wie es im Schritt S6 der 
Fall ist, die einzelnen Grapheme den einzelnen Phonemen bzw. 
Phonemeinheiten zugeordnet, wobei im vorliegenden Fall bei 
20 der Zuordnung des Graphems „c" zu der Phonemeinheit „yu" eine 
zu den bisherigen Zuordnungen widersprilchliche Zuordnung er- 
folgt. Diese widerspruchliche Zuordnung wird festgestellt und 
das Graphem „c" wird mit dem vorhergehenden Graphem „c" zu 
„cc« zusammengefaBt. Dies fOhrt wiederum zu einer korrekten 
Zuordnung der Grapheme zu den Phonemen. 

Im Schritt 315 wird wiederiim geprtlft, ob widersprilchliche Zu- 
ordnungen erfolgt sind. Werden derartige widerspruchliche Zu- 
ordnungen festgestellt, werden sie und die weiteren Zuordnun- 
gen des jeweiligen Wortes gelQscht. 

Mit dem Schritt SI 6 wird das Verfahren beendet. 

Die Anzahl der im Schritt S15 ermittelten widerspriichlichen 
35 Zuordnungen ist ein Merkmal far die Qualitat der Aufbereitung 
der Ausgangsdatenbank zu der durch das Verfahren erhaltenen 
Datenbank mit den einzelnen Graphem-Phonem-Zuordnungen . 
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die zuletzt ausgegebene Gruppierung Gr, und das zuletzt aus- 
gegebene Phonem Phi eingegeben. 

Dieses Netzwerk wird xuit den Wortern der mit dem erfindungs- 
> gen^afien Verfahren aufbereiteten Datenbank trainiert, dere! 
Graphexn-Phonem-Zuordnungen keinen Widerspruch zu den tibrigen 
Graphem-Phonem-Zuordnungen darstellen, das heifit, den Wor- 
tern deren Grapheme korrekt den Phonemen zugeordnet werden 
Konnten . 

D.S neuronale Netzwerk ermittelt Jeweils fur den mittleren 
Buchstaben B2 ein Phone™, wobei der Jewells l™ Kontext vor- 
hergehenden und nachfolgende Buchstabe und das de:» zu ermit- 
telnden Phonem vorhergehende Phonem Ph, berUcksichtlgt wer- 
den. stellen die belden aufeinanderfolgenden Buchstaben B2 
und B3 eine Graphemelnhelt dar, so erglbt sich elne Ausgabe 
fur die Gruppierung Gr von zwel. 1st der Buchstabe B2 keln 
Bestandteil einer aus mehreren Buchstaben bestehenden Graphe- 
me.nhe.t, so wird als Gruppierung Gr elne elns ausgegeben 

Auf der Elngangsselte wird die jeweils letzte Gruppierung Gr, 
beruckslchtlgt, wobel Im Palle alner Gruppierung Ton GrT vcn 
zwer dem mrttleren Buchstaben B2 keln Phonem Ph zugeord^^et 
wrrd da dleser Buchstabe berelts mit der letzten Graphemein- 
he.t berucksichtigt worden ist. In diesem Fall wird der "el - 
te Buchstabe der Gruppierung Obersprungen . 

Il2 neuronalen Netzwerkes werden, „ie es an 

ZTtuTrT"- "^"^ '"^ Elngangsknoten 

und fur dre Ausgangsknoten dem neuronalen Netzwerk vorgege- 
ben, wodurch sich das neuronals Netzwerk die JeweUlgen Zu- 
ordnungen Im Kontext der werter aneignet. 

ES kann zweckmaBig seln, mehr als drel Buchstaben an der Eln- 
gangsserte des neuronalen Netzwerkes vorzusehen, Insbesondere 
Buchst b -Sli3chen sprache, in welcher mehrere 

Buchstaben zur Darstellung elnes einzlgen Lautes verwendet 
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Mit einer solchen elektronischen Datenverarbeitungsvorrich- 
tung 1 kann auch das erf indungsgemSfie Verfahren zum Aufberei- 
ten einer Datenbank ausgeftihrt werden, wobei das Verfahren 
wiederum in Form eines Computerprogrammes im Speicher 4 ge- 
5 speichert ist und von der zentralen Prozessoreinheit 3 zur 
Ausfiihrung gebracht wird, wobei es eine Ausgangsdatenbank, 
die ein WSrterbuch in Schreib- und Lautschrift darstellt, in 
eine Datenbank aufbereitet, in der die einzelnen Laute, die 
Phoneme, den einzelnen Buchstaben bzw. Buchstabenkombinatio- 
10 nen, den Graphemen zugeordnet sind. 

Die Zuordnung der einzelnen Grapheme zu den einzelnen Phone- 
men kann in der aufbereiteten Datenbank durch Leerzeichen ge- 
speichert werden, die zwischen den einzelnen Phonemen und 
15 Graphemen eingeftigt werden. 

Die das erf indungsgemaJbe Verfahren bzw. das neuronale Netz- 
werk darstellenden Computerprogramme konnen auch auf beliebi- 
ge elektronisch lesbare Datentrager gespeichert werden und so 
auf eine weitere elektrische Datenverarbeitungsvorrichtung 
(ibertragen werden. 

Die Erfindung ist oben anhand eines Ausfiihrungsbeispieles Be- 
schrieben, mit dem eine Datenbank fiir die Sprachsynthese er- 
zeugt wird. Im Rahmen der Erfindung ist es selbstverstandlich 
auch moglich, die erf indungsgemafi erzeugte Datenbank bei der 
Spracherkennung zu verwenden, da Spracherkennungsverf ahren 
oftmals Datenbanken mit Graphem-Phonem-Zuordnungen gebrau- 
chen . 

30 

Eine Spracherkennung kann bspw. mit einem neuronalen Netzwerk 
ausgefUhrt werden, das mit der erf indungsgemafi erstellten Da- 
tenbank trainiert worden ist. An der Eingangsseite weist die- 
ses neuronale Netzwerk vorzugsweise drei Eingangsknoten auf, 
35 an welchen das in ein Graphem umzusetzende Phonem eingegeben 
und falls vorhanden zumindest ein im Wort vorhergehendes und 
ein nachfolgendes Phonem eingegeben werden. An der Ausgangs- 
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